好了~ 介紹到這邊,我們還沒有介紹數據怎麼儲存。
不同行業和領域都有其自己的標準和數據體系,生物信息學數據分析也不例外。
在生物信息學中,各種生物數據處理步驟產生了多種中間文件,其中一些已經被規定成了標准文件格式。雖然不需要詳細記住所有這些格式的細節,但有些格式是非~常常用的,值得我們更詳細地了解。
生物信息學中常見的數據存儲格式包括FASTQ、FASTA、SAM、BAM、CRAM、VCF等,每種格式都有其獨特的用途和特點。以下是這些格式的詳細介紹:
FASTQ(文本文件):
FASTA(文本文件):
SAM(文本文件):
BAM(二進製文件):
CRAM(二進製文件):
VCF(文本文件):
這些格式在生物信息學中扮演著關鍵的角色,研究人員和生物信息學家可以根據其研究需求選擇適當的格式來存儲和處理不同類型的生物數據。每種格式都有其自己的工具和library,以便進行數據分析和解釋。
其實有一些python 的library
EX: pysam
好猶豫阿,要不要展開講講這些檔案儲存什麼資訊,還有更細緻的差別,因為好像要講,才知道之後生資分析每個步驟產出來的這些檔案代表些什麼......